# -*- coding: utf-8 -*-  
'''
初始化搜狐新闻数据集

Created on 2021年8月20日
@author: luoyi
'''
from data.dataset_sohu_news import DatasetDocsWriter, DatasetReduced


#    原始数据
ds_reduced = DatasetReduced()

#    写入新闻内容分词数据集
ds_doc_w = DatasetDocsWriter(ds_reduced=ds_reduced)
print('开始写入分词数据集...')
ds_doc_w.write_words()

#    共7个文件
#    0-6个文件：每个文件65536
#    第7个文件：26499

